\documentclass[11pt, a4paper, oneside,oneany]{article}
\usepackage[utf8]{inputenc}
\usepackage[francais]{babel}
\usepackage{graphicx,wrapfig,lipsum}
\usepackage{xspace}
\usepackage[cyr]{aeguill}
\usepackage{enumerate}
\usepackage[a4paper]{geometry}	
\usepackage{bbold}
\usepackage{hyperref}
\usepackage{setspace}
\setlength{\parindent}{30pt}
%\onehalfspacing
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage{amsthm,array}
\usepackage{adjustbox}
\usepackage{multirow}
\usepackage{subfigure}
%opening
\usepackage{array}
\usepackage{vmargin}
\usepackage{floatrow}
\usepackage[font=small,labelfont=bf]{caption}
\newcolumntype{L}[1]{>{\raggedright\let\newline\\\arraybackslash\hspace{0pt}}m{#1}}
\newcolumntype{C}[1]{>{\centering\let\newline\\\arraybackslash\hspace{0pt}}m{#1}}
\newcolumntype{R}[1]{>{\raggedleft\let\newline\\\arraybackslash\hspace{0pt}}m{#1}}
% Table float box with bottom caption, box width adjusted to content
\newfloatcommand{capbtabbox}{table}[][\FBwidth]
\usepackage{blindtext}
\setstretch{1.3}
\setmarginsrb  { 1.5in}  % left margin
                        { 0.6in}  % top margin
                        { 1.2in}  % right margin
                        { 0.8in}  % bottom margin
                        {  20pt}  % head height
                        {0.25in}  % head sep
                        {   9pt}  %  height
                        { 0.3in}  % foot sep
                        
\makeatletter
\newcommand{\thickhline}{%
    \noalign {\ifnum 0=`}\fi \hrule height 1pt
    \futurelet \reserved@a \@xhline
}
\newcolumntype{"}{@{\hskip\tabcolsep\vrule width 1pt\hskip\tabcolsep}}
\makeatother

\newcommand{\HRule}{\rule{\linewidth}{0.5mm}}
\newcommand*{\thesistitle}[1]{\def\ttitle{#1}}

%\thesistitle{Projet de Scoring : Calibration d’un modèle CHAID et Test de Robustesse}
\title{\textbf{Projet de Scoring} \\ Calibration d’un modèle CHAID et Test de Robustesse}
\author{Cuong NGUYEN Quoc et Florent RITLENG}
\date{Juin 2014}

\begin{document}
%\begin{titlepage}
%\begin{center}
%\textsc{\Large Note de synthèse}\\[0.5cm] % Thesis type
%\HRule \\[0.4cm] % Horizontal line
%{\huge \bfseries \ttitle}\\[0.4cm] % Thesis title
%\HRule \\[1.5cm]
%\end{center}
%\end{titlepage}
\maketitle
Le but de ce projet est de calibrer un score avec un modèle CHAID et de tester sa robustesse. Nous allons expliquer la variable Y représentant le défaut à un an en fonction d’un vecteur de variables explicatives X \footnote{Le jeu de données contient les cohortes allant de 1996 à 2010.}. Dans un premier temps, nous expliquerons comment nous avons retraité les données. Dans un second temps, nous allons calibrer un modèle CHAID et tester sa robustesse. Enfin, nous effectuerons une régression logistique afin de comparer avec la performance du modèle CHAID. 
\section{Traitement des données}
Après avoir supprimé les individus en défaut à date (variable \textit{sain\_a\_date}=0), la base de données comporte 96 531 lignes et 18 variables dont 6 sont quantitatives. Il est nécessaire de retraiter les variables explicatives avant de les utiliser dans la modélisation. Nous allons essayer de découper de façon optimale les variables quantitatives puis regrouper les modalités de certaines variables qualitatives.
\subsection{Les variables quantitatives}
Dans un premier temps, nous retraitons les 6 variables quantitatives de la base de données. Nous supprimons les valeurs numériques manquantes, ce qui diminue le nombre d’observations à 87 165.\\ \\
Nous découpons les variables quantitatives en variables qualitatives à plusieurs modalités. Pour ce faire, nous utilisons de manière détournée la procédure d’arbre CHAID disponible dans le logiciel SPSS. Pour chaque variable quantitative X, nous expliquons la variable Y en fonction de X. Cela permet de découper les variables représentant les montants de l’opération bancaire (\textit{montant1, montant2 et montant3}) ainsi que les ratios (\textit{ratio1, ratio2})\footnote {Après avoir étudié les corrélations entre les variables quantitatives, nous décidons de ne pas utiliser le montant inflaté de l’opération car celui-ci est corrélé à 99,6\% avec le montant de l’opération}. A titre d’exemple, la figure \ref{fig:montant1} illustre graphiquement le découpage de la variable \textit{montant1}.

\begin{figure}[htbp]
\centering
   \includegraphics[keepaspectratio=TRUE,width=14cm]{montant1.png}
\caption{Découpage de la variable \textit{montant1}}
\label{fig:montant1}
\end{figure}
\subsection{Les variables qualitatives}
Dans un second temps, nous retraitons les variables qualitatives qui ont trop de modalités. A titre d’exemple, nous regroupons les catégories socio professionnelles selon le premier chiffre (CSP de 1 à 8). De plus, nous supprimons les observations dont les durées sont négatives. Nous ne gardons pas la durée restante de l’opération (\textit{var\_signa3}) car c’est exactement la différence entre la durée de l’opération (\textit{var\_octroi3}) et l’âge de l’opération (\textit{var\_signa5}). De plus, nous supprimons la date de mise en force (\textit{var\_octroi4}). Enfin, nous découpons l’âge du client et l’âge de l’opération grâce à la procédure CHAID :
\begin{figure}[htbp]
\centering
   \includegraphics[keepaspectratio=TRUE,width=14cm]{age.png}
\caption{Découpage de la variable âge de l'opération}
\label{fig:age}
\end{figure}
\\ Enfin, nous supprimons la variable correspond au montant maximum de l’impayé dans l’année (\textit{var\_comportement2}) car ses rangs sont très corrélés avec le nombre de trimestres en impayé (\textit{var\_comportement1}). 
Pour que le modèle soit plus lisible, nous décidons de regrouper les modalités du type d’objet financé (\textit{var\_octroi1}) grâce à la procédure CHAID appliqué à la variable \textit{var\_octroi1}. Nous remarquons qu’il est nécessaire de regrouper les modalités « construction neuve » et « Construction neuve » car l’une présente une majuscule. 

\section{Calibration d’un modèle CHAID et test de robustesse}
Dans cette partie, nous calibrons un modèle CHAID avec l’outil de classification en arbre présent dans le logiciel SPSS. La variable expliquée est \textit{Y = défaut à un an} et les 14 variables explicatives restantes sont utilisées dans le découpage successif de la population. Le critère de performance utilisé à chaque niveau de segmentation dans le choix de la variable optimal est le Chi 2 de Pearson. La profondeur maximale de l’arbre est automatiquement établie à 3. Par défaut, le nombre de feuille maximale est fixé à 50 et le nombre maximal de nœuds à 100. Ces paramètres sont des leviers pour le contrôle du sur-apprentissage. \\ \\
Tout d’abord, l’arbre est calibré sur la totalité de la population. L’échantillon d’apprentissage représente 80 256 observations dont 4,2\% sont en défaut. 
\paragraph{Résultats}L’arbre obtenu est de profondeur 3, comporte 38 feuilles et 59 nœuds. Certaines variables ne sont pas prises en compte : la catégorie socio professionnelle (CSP), la situation familiale (\textit{var\_signa1}) et le taux d’endettement (\textit{ratio1}). Le premier nœud segmente l’échantillon selon le nombre de trimestre en impayé dans l’année. Comme le montre l’arbre de la figure \ref{fig:chaid}, 26,1\% des souscripteurs ayant au moins 3 trimestres impayés dans l’année ont fait défaut à horizon 1 an. Cette variable permet de discriminer les individus faisant défaut comme le montre le tableau suivant :
 \begin{table}[htbp]
 \centering
 \footnotesize
 \begin{tabular}{C{4cm}|c|c|c|c}
Nombre de trimestres impayés & 0 & 1 & 2 & 3 ou 4 \\
\hline
Proportion de défaut dans la sous-population&  1,9\% & 9,5\% & 16,3\% & 26,1\% \\
 \end{tabular}
 \caption{Proportion de défaut en fonction de la variable \textit{comportement1}}
 \end{table}\\
Le tableau de contingence suivant permet de comparer les observations et les prédictions dans la population d’apprentissage :
\begin{table}[htbp]
\centering
\footnotesize
\begin{tabular}{|l|r|r|r|}
\hline
\multirow{2}{*}{Observed} & \multicolumn{3}{c|}{Predicted} \\
							\cline{2-4}
						  & 0 & 1 & Percent Correct \\
						  \hline
						0 & 76869 & 26 & 100\% \\
						1 & 3324  & 37 & 1.1\% \\
	   Overall Percentage & 99,9\% & 0.1 \% & 95,8 \% \\
	\hline
\end{tabular}
\caption{Tableau de prédiction par l'arbre CHAID}
\end{table}
\\ Seuls 1,1\% des défauts sont correctement prédits mais la quasi-totalité des souscripteurs sains est correctement prédite  par l’arbre. La qualité du score peut être mesurée par l’indice de Gini qui synthétise la performance du modèle. Le calcul de l’aire comprise entre la courbe ROC et la première bissectrice donne un indice égal à 83,4\%. \\

%\begin{figure}[htbp]
%\subfigure[Arbre CHAID]{
%   \includegraphics[keepaspectratio=FALSE,width=20cm,height=6cm,angle=-90]{chaid.jpg}
%   \label{fig:chaid}}
%\qquad
%\subfigure[Courbre ROC 100 \%]{
%   \includegraphics[keepaspectratio=TRUE,height=4cm]{roc.png}
%   \label{fig:roc}}
%\caption{Arbre CHAID et Courbre ROC}
%\end{figure}
 \begin{minipage}{\textwidth}
  \begin{minipage}[b]{0.49\textwidth}
    \flushleft
    \includegraphics[keepaspectratio=FALSE,width=20cm,height=6cm,angle=-90]{chaid.jpg}
    \captionof{figure}{Arbre CHAID 100\%}
     \label{fig:chaid}
  \end{minipage}
  \hfill
  \begin{minipage}[b]{0.49\textwidth}
    \centering
    \includegraphics[keepaspectratio=TRUE,scale=0.3]{roc.png}
      \captionof{figure}{Courbe ROC 100\%}
       \label{fig:roc}
    \end{minipage}
  \end{minipage}
\clearpage
\paragraph{Robustesse} Dans ce paragraphe, nous testons la robustesse du modèle CHAID, c’est-à-dire la sensibilité du modèle à la population ayant servi à l’estimation du score. \\ \\
Dans un premier temps, nous séparons la population servant à l’estimation en deux sous-populations. Nous choisissons de répartir 70\% de la population dans un échantillon d’apprentissage (\textit{in sample}) et 30\% dans un échantillon de test (\textit{out-of-sample}) qui nous serviront à mesurer la performance du score. Nous allons mesurer simultanément la performance des deux populations, l’écart de performance étant un indicateur de non-robustesse du modèle.
\begin{figure}[htbp]
\centering
\subfigure[ROC \textit{in sample} (performance = 83,1\%)]{\includegraphics[keepaspectratio=TRUE,scale = 0.3]{roc-70.png}}
\qquad
\subfigure[ROC \textit{out-of-sample} (performance = 82,6\%)]{\includegraphics[keepaspectratio=TRUE,scale = 0.3]{roc-70-out.png}}
\caption{Comparaison des ROC \textit{in sample} et \textit{out-of-sample}}
\end{figure}
\\Le modèle CHAID estimé sur la nouvelle population d’apprentissage (70\% de la population précédente) ressemble à l’arbre précédent avec une profondeur de 3, 34 feuilles et 58 nœuds. En plus des 3 variables précédentes\footnote{ la catégorie socio professionnelle (CSP), la situation familiale (\textit{var\_signa1}) et le taux d’endettement (\textit{ratio1})}, deux autres ne sont plus prises en compte dans le nouveau modèle : la variable \textit{Loan to} value (\textit{ratio2}) et l’âge du souscripteur (\textit{var\_signa4}). \\ \\
Le tableau de contingence suivant permet de comparer les observations et les prédictions dans la population d’apprentissage :
\begin{table}[htbp]
\centering
\footnotesize
\begin{tabular}{|l|L{2cm}|r|r|r|}
\hline
\multirow{2}{*}{Sample} &	\multirow{2}{*}{Observed} &	\multicolumn{3}{c|}{Predicted} \\
\cline{3-5}
& & 0	& 1	& Percent Correct \\
\hline
\multirow{3}{*}{Training} &	0 &	53731 &	0& 	100.0\% \\
						  &	1 &	2355  &	0 &	0.0\% \\
						  \cline{2-5}
		 & Overall Percentage &	100.0\% &	0.0\% &	95.8\% \\
\hline
\multirow{3}{*}{Test} &	0&	23164&	0	& 100.0\% \\
					  & 1&	1006&	0	& 0.0\% \\
					  \cline{2-5}
	& Overall Percentage &	100.0\%	& 0.0\% &	95.8\% \\
\hline
\end{tabular}
\end{table}
\\ En réduisant la taille de l’échantillon d’apprentissage, le modèle ne prédit aucun défaut. La qualité du score est alors diminuée en ce sens, mais l’indice de Gini reste stable à 83,1\% dans l’échantillon \textit{in sample} et 82,6\% dans l’échantillon \textit{out-of-sample}. L’écart de robustesse est alors de 0,5\%.\\ \\
Pour tester la robustesse du modèle, nous séparons maintenant la population d’origine en 50\% \textit{in sample} et 50\% \textit{out-of-sample}. La forme de l’arbre CHAID est modifiée avec 28 feuilles et 45 nœuds. L’indice de performance reste stable à 82,7\% sur l’échantillon \textit{in sample} et à 82,8\% sur l’échantillon \textit{out-of-sample}. Ceci implique que le niveau d’apprentissage est atteint avant 50\% car la performance \textit{out-of-sample} stagne autour de 82,8\%. Ainsi, un échantillon \textit{in sample} de 70\% de l’échantillon d’origine entraine un léger sur-apprentissage. \\ \\
Nous allons comparer les indices de performance précédents avec un modèle de régression logistique. 
\section{Calibration d’un modèle de régression logistique}
Le modèle logistique est le plus utilisé en pratique. En théorie, il est censé garantir une bonne robustesse si la préparation des variables et la procédure d’estimation sont bien réalisées. Nous allons utiliser une méthode de type \textit{backward stepwise} induction pour sélectionner les variables qui permettent de minimiser les critères d’information de type AIC ou BIC. \\ \\
La régression est effectuée sur l’échantillon d’apprentissage composé de 70\% de l’échantillon initial. Nous utilisons les 9 variables explicatives sélectionnées dans l’arbre CHAID. La régression logistique s’arrête à la step 1 et les 9 variables sont sélectionnées (même chose pour l\textit{’induction forward}). La majorité des variables est significative, à l’exception de certaines modalités de l’âge de l’opération et du type d’objet financé (voir annexe). \\
\begin{figure}[htbp]
\centering
\subfigure[Echantillon d'apprentissage]{\includegraphics[keepaspectratio=TRUE,scale=0.25]{roc-logit.png}
}
\qquad
\subfigure[Echantillon de test]{\includegraphics[keepaspectratio=TRUE,scale=0.25]{roc-logit-out.png}
}
\caption{Courbe ROC de la régression logistique}
\label{fig:roc logit}
\end{figure}
\\Les probabilités prédites sont les suivantes avec $\hat{\beta}$ l’estimateur de la régression :
\begin{equation*}
\mathbb{P}\left(Y|X=x\right)=\frac{1}{1+\exp\left(-\beta ' x\right)}
\end{equation*}
Les courbes ROC sont données sur l’échantillon d'apprentissage et l'échantillon de test dans la figure \ref{fig:roc logit}. \\ \\
L’indice de performance sur l'échantillon d'apprentissage est de 84\%, ce qui est légèrement mieux que le modèle CHAID. De plus, l’indice de performance sur l’échantillon de test est de 83,4\% ce qui est très proche de l’arbre de décision. L'écart entre les performances \textit{in sample} et \textit{out-of-sample} qui traduit la robustesse de la régression logistique est de 0,6\%, ce qui est comparable avec l'écart obtenu pour le modèle CHAID.  \\ \\
En conclusion, le modèle CHAID semble assez robuste au changement de la base d’estimation. De plus, les statistiques de performance semblent très proches du modèle logistique.\\ \\

\end{document}



